Políticas condicionadas por dirección para aprendizaje por refuerzo en línea
El método DCP mejora el aprendizaje por refuerzo en línea al condicionar las políticas por dirección, superando a Contrastive RL en manipulación y obstáculos.
El método DCP mejora el aprendizaje por refuerzo en línea al condicionar las políticas por dirección, superando a Contrastive RL en manipulación y obstáculos.